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摘要 提出 用 于 描述 科技 文献 核心 知识 的 “研究 设计 指纹 ”概念 ,综合 研究 分 析 了 相关 的 科 
技 文献 规范 描述 框架 ,创建 < 基于 科技 文献 的 研究 设计 指纹 描述 框架 ”, 以 增强 科技 文献 的 机 器 计 
算 可 执行 性 .知识 粒度 性 、 知 识 关联 性 、 结 构 的 扩展 性 以 及 研究 设计 思路 的 可 视 性 ,为 科研 人 员 快 
速 发 现 研究 设计 方法 、 研 究 设 计 工 具 等 指纹 提供 了 新 的 思路 与 方法 。 

关键 词 ”科技 文献 ”研究 设计 指纹 ”知识 组 织 ”语义 出 版 ”知识 骨干 


过 1 引言 

Cj ”科技 文献 是 科学 技术 发 展 的 重要 战略 资源 ,但 
O 〇 随 着 信息 技术 的 快速 发 展 ,数字 出 版 速度 加 快 ,海量 
科技 文献 也 带 来 一 些 现实 问题 ;对 某 一 具体 研究 领 
oy- 域 或 研究 方向 ,无 法 快速 追踪 与 了 解 相关 的 研究 方 
〇 法 .研究 设备 等 核心 知识 对 象 ,也 无 法 快速 客观 评估 
《相关 知识 对 象 对 研究 问题 的 有 效 性 。 特 别 对 一 个 刚 
名 刚 踏 入 科研 领域 的 工作 者 来 说 ,会 出 现 无 从 下 手 的 
ON 局 面 。 

| 针对 上 述 问题 ,笔者 在 调研 了 科技 文献 描述 规 
SC 范 以 及 相关 写作 指南 之 后 ,提出 利用 研究 设计 指纹 
GG 对 科技 文献 进行 结构 化 描述 ,提升 科技 文献 的 计算 
,三 机 可 识别 性 .可 执行 性 口 ,帮助 科研 人 员 快 速 了 解 科 
-三 技 文献 的 研究 方法 、 算 法、 工具 及 结论 等 ,并 为 未 来 
一 的 科学 出 版 ( 即 语义 化 出 版 只) 提供 相应 的 出 版 规范 
参照 。 论 文 结构 如 下 :第 二 部 分 提出 “研究 设计 指 
纹 ” 的 概念 ,第 三 部 分 就 此 展开 相关 研究 分 析 , 第 四 
部 分 提出 科技 文献 的 “研究 设计 指纹 描述 框架 ”, 第 
五 部 分 探析 其 潜在 应 用 。 
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2 研究 设计 指纹 概念 的 提出 

科技 文献 从 本 质 上 看 是 科研 人 员 开 展 科学 研究 
思路 的 文本 化 ,也 是 科研 成 果 发 布 与 传播 的 重要 载 
体 , 还 是 掌握 某 一 研究 主题 的 研究 概貌 的 核心 资料 。 
在 面 对 海 量 科技 文献 的 情况 下 ,如 何 快速 了 解 文献 
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* 本 文 得 到 中 国 科学 院 文献 情报 中 心 青年 人 才 项 目 "“ 基 于 开放 KOS 的 领域 主题 学 术 关 系 网 络 扩展 方法 研究 ”( 项 目 编号 : 青 1303) EL ES 
家 “十 二 五 ”科技 支撑 计划 课题 “科技 知识 组 织 体系 共享 平台 建设 "(项 目 编号 :2011 BAH10B03) 的 支持 。 


的 研究 框架 、 采 用 的 研究 方法 以 及 讲述 的 研究 内 容 
成 为 图 书 情报 领域 关注 与 研究 的 主题 。 论 文 提出 
“研究 设计 指纹 ”概念 ,尝试 从 科学 研究 设计 的 视角 
去 解决 上 述 问题 ,通过 对 一 篇 科技 文献 的 知识 骨干 
网 络 进行 结构 化 描述 ,揭示 出 相关 研究 方法 、 算 法 等 
研究 设计 指纹 ,帮助 科研 人 员 快 速 了 解 研究 设计 过 
程 以 及 各 个 过 程 中 的 重要 研究 设计 指纹 对 象 。 

目前 “研究 设计 指纹 ”没有 一 个 明确 的 界定 ,但 
是 “基于 本 体 标 引文 献 的 工具 ”(An Ontology Based 
Tool for Preparation of Articles) m H ZH fE 2007 
年 开展 全 文 挖掘 与 标 引 工作 中 ,抽象 出 “科技 文献 核 
心 信息 (Core Information Scientific Papers, CISP)" 
概念 ,一 定 程度 上 也 是 对 科技 文献 所 包含 的 重要 知 
识 对 象 的 揭示 ,其 定义 如 下 :CISP 是 来 自 于 知识 本 
体 类 的 一 个 已 定义 好 的 集合 ,包含 的 关键 类 有 :调研 
目标 、 调 研 对 象 .研究 方法 .结果 以 及 结论 等 。 另 外 ， 
其 他 研究 项 目 也 提出 "核心 知识 对 象 ”*“ 科 学 知识 组 
织 体系 ”“ 科 技 核心 ”等 类 似 概 念 。 

基于 上 述 描述 与 概念 ,本 文 给 出 “研究 设计 指 
纹 ” 的 定义 为 :描述 一 个 科学 研究 设计 实现 过 程 中 拥 
有 多 个 核心 设计 元 素 特征 的 知识 对 象 。 它 具有 三 个 
主要 特征 :(1) 精 炼 地 “揭示 科学 研究 的 设计 思路 ”; 
(2) 结 构 化 地 “揭示 科学 研究 方法 、 过 程 和 结构 ”; (3) 
可 视 化 地 “揭示 科学 研究 中 的 骨干 知识 及 其 关系 ”。 
设计 指纹 的 类 型 方面 ,本 文 主要 参考 科技 文献 写作 
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指南 (如 侯 赛 因 教 授 中 设计 的 “研究 文献 写作 指南 与 
要 求 ” 巴 达 沙 利 中 设计 的 “写作 与 出 版 科技 文献 的 
指南 ?以 及 有 机 生物 学 实验 室 ” 的 “科技 文献 写作 指 
南 " 等 ) ,定义 了 11 种 设计 指纹 , 即 研究 假说 、 研 究 场 
景 、 人 研究 目的 .研究 背景 研究 方法 \ 人 研究 数据 、 人 研究 
算法 .研究 设备 .研究 结果 .人 研究 结论 和 未 来 研究 。 


3 相关 研究 综述 

作为 一 种 科研 成 果 的 传播 载体 ,科技 文献 本 身 
具有 相应 的 描述 规范 ,如 最 初 的 经 典 通用 模型 IM- 
RAD ( Introduction-Methods-Result-And-Discus- 
sion ,介绍 一 方法 一 结果 一 结论 ) FEE (E Modular) 
模型 .语义 注解 LaTeX (Semantically Annotated 
LaTeX, SALT)、W3C 提出 的 科学 篇 章 修辞 块 本 体 
(Ontology of Rhetorical Blocks，ORB) 标 准 结 构 模 
AJ, ABCDE 模型 ( Annotation-Background-Contri- 
bution-Discussion-Entity ,注解 一 背景 一 贡献 一 讨论 
一 实体 )、 科 技 文献 核心 信息 (Core Information Sci- 
entific Papers, CISP) 关联 科学 核心 词汇 (Linked 
Science Core Vocabulary, LSC), 纳米 出 版 物 模 式 
(Nanopublication) ` 面 向 模型 的 科学 研究 报告 规范 
( Model-Oriented Scientific Research Report, 
MOSRR) 以 及 Elsevier 的 未 来 论文 模式 (Elsevier 
Article of the Future) 等 ,以 实现 科技 文献 或 者 资源 
信息 的 结构 化 描述 ,使 文献 或 者 资源 有 具备 自动 识别 
执行 性 .自动 理解 性 等 语义 特征 。 本 文 从 组 织 灵 活 
TE 3)" Ré Vk er BE TE CH 4D .关系 性 、 结 构 通 用 性 、 计 
算 可 执行 性 以 及 研究 设计 指纹 特征 等 七 个 角度 对 上 
述 描述 规范 或 者 模型 进行 比 对 分 析 , 结 果 如 下 图 1 
所 示 ,具体 描述 规范 的 内 容 与 特征 如 下 。 


WE LES. 

£5 [mmm | 扩展 性 | 粒度 性 | xxn 结构 通用 性 | 计算 可 执行 性 | 研究 设计 指 
活性 | gu 

IMRAD x x x x Y x x 
Modular x A Y x s x 
SALT x x Y Y x x X 
ORB P4 Y Y Y P4 Y 
ABCDE x x x x Y x x 
asr Y Y LA rA P4 Y 
Lsc Y x x Vv x Y x 
Nanopublicaton y x P4 Y x Y x 
MOSRR. x x Y Y x x x 
Elsevier Article — X x x WwW L x 


图 1 科技 文献 研究 设计 指纹 描述 体系 
相关 框架 对 比分 析 结 果 图 
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3.1 IMRAD 经 典 模 型 

IMRAD 经典 模式 是 在 自然 科学 中 基于 科 
学 实验 报告 的 原型 表示 , 即 :要 研究 什么 问题 (Intro- 
duction) ,如 何 研 究 上 述 问题 (Methods), 通 过 人 研究 
发 现 了 什么 (Results), 上 述 发 现 意味 着 什么 (Dis- 
cussion)。IMRAD 结构 被 许多 科学 杂志 认可 ,并 且 
是 国际 医学 期 刊 编辑 委员 会 (International Commit- 
tee of Medical Journal Editors)' 发 布 的 生物 医学 
类 期 刊 的 投稿 统一 要 求 , 即 生 物 医 学 出 版 物 的 写作 
与 编辑 中 推荐 的 标准 。IMRAD 模型 发 展 历程 如 下 
图 2 所 示 。 

19 世 纪 下 半 个 时 期 ， 


时 期 以 叙事 为 主 | | 加 入 科学 实验 


IMRAD 仍 然 是 文献 结构 
化 发 展 的 标尺 


图 2 IMRD 模型 发 展 

电子 文献 的 模块 化 模型 
基于 标准 通用 标记 语言 的 理论 ,提出 电子 文献 
的 模块 化 结构 "" ,用 标签 来 识别 。 一 个 模块 即 是 能 
够 表达 概念 的 信息 单元 ,划分 的 依据 是 其 包含 信息 
的 连续 性 与 完整 性 。 科 技 文献 的 结构 本 里 可 以 划分 
模块 ,如 :简介 、 方 法 结果、 讨论 与 结论 ,这 种 顺序 代 
表 着 一 篇 科技 叙述 的 规范 流程 。 但 是 ,这 种 叙述 流 
程 具有 一 个 先决 条 件 , 即 要 对 文献 从 头 到 尾 进 行 顺 
序 阅 读 。 但 是 知识 丰富 的 读者 很 少 进行 顺序 阅读 ， 
而 是 通过 浏览 来 发 现 有 用 的 信息 点 或 者 信息 片 。 所 
以 作为 能 够 独立 用 于 阅读 的 模块 ,其 独立 性 并 不 是 
章 它 能 够 充分 叙述 整个 工作 ,而 是 能 够 让 读者 瞬间 
缩小 关注 点 ,快速 获取 知识 。 
3.3 ABCDE 模型 

从 叙述 式 阅 读 到 计算 机 理解 的 一 种 好 方式 是 让 
作者 在 科研 写作 过 程 中 ,就 按照 一 定 的 格式 创造 出 
具有 丰富 语义 结构 的 研究 文献 ,基于 这 一 目标 , 沃 德 
(Anita de Waard)- 提出 了 ABCDE 模型 ,以 便 研 
究 人 员 集 成 、 挖 掘 与 分 析 研 究 成 果 :A(CAnnotation ) ， 
基于 DC 元 数据 标准 的 文献 元 数据 描述 ,如 标题 、 作 
者 等 ;B(Background) ,描述 研究 的 定位 ,当前 持续 
性 的 问题 以 及 相关 的 研究 问题 ;CCContribution) , 描 
述 作者 已 经 做 过 的 工作 ,包括 调研 .实现 等 ;DCDis- 
cussion) ,描述 已 经 开展 过 的 人 研究 的 讨论 结果 ,同时 
列 出 各 个 结果 之 间 的 对 比分 析 ;E(CEntity) ,描述 一 
个 实体 对 象 , 例 如 人 和 名、 工程 名 称 、 研 究 方法 等 。 
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由 于 路 易 斯 . 巴 斯 德 (Louis Pasteur) 提 
出 疾病 的 细菌 理论 ， 加 入 科学 方法 


IMRD 逐 步 开 始 形 成 
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3.4 SALT 模型 

SALT 2 是 利用 语义 标注 原理 丰富 科学 出 版 的 
一 个 语义 创作 框架 。SALT 提供 了 用 来 识别 出 版 物 
的 修辞 结构 与 论证 内 容 的 方法 ,实现 核心 是 创建 三 
种 本 体 即 文档 本 体 、 修 辞 本 体 与 标注 本 体 , 它 们 之 间 
的 关系 结构 如 图 3 所 示 。 利 用 SALT 支持 科学 出 版 
的 过 程 大 致 分 为 两 个 阶段 :第 一 阶段 是 SALT 过 
程 ,主要 负责 分 析 标 引 和 将 本 体 实 例 租 和 人 到 最 终 的 
PDF 文档 中 ,分 为 综合 分 析 与 标 引 抽取 、 标 引 与 本 
体 创建 和 PDF 文档 编译 三 个 步骤 ;第 二 阶段 是 出 版 
过 程 ,将 第 一 阶段 生成 的 语义 PDF 文档 集 作 为 输入 
集合 ,生成 一 系列 对 应 且 具 有 索引 的 HTML 文件 。 
目前 SALT 不 仅 支 持 LaTeX 的 创作 环境 ,其 模型 还 
可 被 用 于 其 他 环境 来 丰富 科学 出 版 ,出 版 过 程 如 下 
4 所 示 。 


1Y 文 档 的 线性 结构 
"È? ( Sections) 
*& 3$ ( Paragraphs) 


HasLinkedSentence 


A————— 


HasLinkToAnnotatio 


pet m emm 


———— 


3 SALT 本体 组 成 元 素 框架 


[socumentc sarticle} 3 SALT 
| Paper titie: SALT 
Mie SALT) 
Vauthor Tudor Groza} Author: Tudor Groza 
| Date: 10/12/2006 
'begin(abstract) | 
Machine-understandabie data [ | Abstract 
\end{abstract} x Machine-understandable data 
sectionfIntroducbo: | ^ 
isection[l n) | 
(motivation) Also.. 
Also, 'ciaim(ct Kexisting support for "a 
metadata in PDF is poor). = Moti 
Although PDF defines a particular field ENS Voss eo 
for embedding metadata in it [..] | 
\erpianator{e1Hdubdlin core is not Evidence: 
sufficient] * Claim: "existing support for 
The current status of the field is. metadata in PDF is 
represented by a shallow. [> Explanation: “dublin core is not 
vend[motivaitonjvevidence[ptKc1:et) sal-webpub ees 
t-J | 
tsection{Conciusion} | Conclusion 
In this paper we have described a |In this paper we have 
solution [...] L 
LaTex HTML 


4 ”SALT 支持 科学 出 版 的 过 程 
3.5 ”ORB PRA 
ORB-*-J& W3C F 2011 年 发 布 的 文献 修辞 块 
结构 描述 标准 ,目标 是 提供 一 个 规范 化 结构 来 表示 
科技 文献 中 的 所 有 描述 知识 项 ,从 而 推动 科技 文献 
结构 表示 的 标准 化 、 语 义 化 及 实用 化 。ORB 不 仅 可 
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以 在 新 创作 的 科学 文献 结构 中 增加 语义 ,也 可 以 标 
引 已 经 出 版 的 科学 文献 。 它 类 似 于 利用 插件 式 操作 
方式 实现 对 科技 文献 内 容 结 构 的 灵活 控制 ,主要 有 
以 下 特征 :融和 人 修辞 模块 粗 粒 度 集合 ,如 表示 摘要 、 
研究 背景 等 段落 ;文档 内 容 提 供 了 细 粒 度 语义 入 口 ， 
如 具体 的 某 一 句 话 或 者 某 一 句 话 的 某 一 部 分 、 某 一 
个 词 等 。ORB 在 内 容 结构 的 组 织 上 分 为 头 部 、 主 体 
和 尾部 。 
3.6 CISP 结构 模型 

JISC 于 2007 发 布 的 大 学 研究 报告 介绍 了 科学 
文献 核心 信息 描述 的 一 种 新 模式 CISP" ,主要 利用 
本 体 方 法 体系 来 开发 与 组 织 以 科学 实验 为 基础 的 科 
技 文献 的 元 数据 ,挖掘 与 揭示 其 内 在 的 逻辑 关系 、. 语 
义 关 联 关系 以 及 各 个 组 成 元 素 的 清晰 定义 ,如 定义 
了 调研 目的 .调查 动机 、` 调 查 对 象 .研究 方 法 .开展 的 
实验 、 观 察 发 现 、 结 果 与 结论 等 本 体 类 别 。 
3.7 纳米 出 版 物 计划 项 目 

为 了 解决 发 现 、 关 联 与 设计 学 术 研 究 中 特殊 核 
心 科学 描述 的 困难 ,概念 网 络 联盟 启动 了 纳米 出 版 
物 计划 ”2 。 它 利用 计算 机 作为 辅助 工具 ,从 文献 和 
数据 中 抽取 研究 结论 .研究 事实 或 研究 结果 ,以 三 元 
组 的 模式 建立 起 语义 关系 ,从 而 使 文献 结构 的 动态 
性 、 机 器 计算 可 执行 性 得 到 加 强 , 更 好 地 支持 后 期 的 
大 数据 处 理 与 挖掘 。 虽 然 目 前 此 计划 对 于 学 科 和 领域 
的 依赖 性 .数据 处 理 的 针对 性 相对 较 强 ,但 是 对 相关 
研究 来 说 具有 很 好 的 借鉴 意义 。 
3.8 MOSRR 规范 模型 

虽然 科学 研究 报告 已 经 结构 化 了 (比如 上 述 的 
IMRD 模型 ) ,但 是 知识 单元 的 粒度 相对 还 较 大 , 仍 
然 以 自由 文本 表示 为 主 。 而 MOSRR 规范 模型 中 
在 一 定 程度 上 改进 了 上 述 问题 ,能 通过 结构 化 使 信 
息 具 有 更 小 粒度 角色 ,可 以 更 灵活 舱 入 到 科研 工作 
流 中 ,帮助 改善 与 提升 科学 人 研究 报告 的 结构 化 程度 。 
同时 此 模型 也 可 以 支持 数据 密集 型 的 科学 研究 以 及 
灵活 的 研究 工作 流 设计 等 活动 。 
3.9 Elsevier 发 起 的 “未 来 论文 ”项目 

Elsevier 的 未 来 论文 项 目 " 是 2009 年 开始 发 
起 ,目前 超过 150 位 研究 人 员 进 行 研 发 ,其 目标 是 使 
Elsevier 期 刊 成 为 发 现 与 探索 科学 研究 最 可 能 的 地 
方 ,让 重新 设计 描述 的 文献 更 具有 可 读 性 、 无 颖 导航 
性 。 此 项 目的 深度 人 研发 遵循 三 个 指导 原则 :一 是 可 
读 性 , 即 让 新 出 版 的 文献 知识 更 容易 在 屏幕 中 得 到 
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有 效 揭示 ;二 是 可 发 现 性 , 即 实现 引导 式 、 工 作 流 式 
的 内 容 与 功能 发 现 ;三 是 可 扩展 性 , 即 在 不 牺牲 可 读 
性 的 基础 上 ,具有 一 个 通用 的 功能 层 来 揭示 丰富 的 
特殊 主题 内 容 。 这 一 项 目的 发 展 模式 目前 已 经 初 具 
HEHE ,在 未 来 的 语义 化 出 版 中 值得 借鉴 与 期 待 。 
3.10 LSC 描述 框架 

LSCH 作为 一 种 轻 量 级 词汇 ,由 德国 明 斯 特 
大 学 地 理 信息 学 院 构 建 ,其 底层 框架 技术 主要 依赖 
W3C 的 资源 描述 框架 规范 ,同时 借鉴 了 牛津 大 学 赵 
军 编辑 的 开放 源 模 型 词汇 表 (Open Provenance 
Model Vocabulary) P fi XE 3g, LSC 词汇 为 出 版 
商 和 科研 人 员 提 供与 时 间 .空间 .主题 相关 的 科学 事 
件 的 术语 词汇 ,能够 结构 化 描述 科学 资源 ,最终 达到 
以 机 器 可 以 理解 的 方式 来 关联 发 现 科 学 资源 。 此 种 
以 科学 知识 关联 为 目的 的 描述 框架 ,也 为 科技 文献 
中 研究 设计 指纹 之 间 的 关联 关系 提供 了 很 好 的 
借鉴 。 


4 研究 设计 指纹 描述 框架 的 设计 

综 上 发 现 ,各 个 规范 描述 框架 都 具有 自身 的 人 研 
究 环 境 与 特殊 目标 ,比如 对 理化 领域 知识 的 描述 、 对 
科学 实验 本 体 的 创建 .对 开放 科学 资源 的 关联 以 及 
对 未 来 语义 出 版 的 支持 等 。 但 是 ,面向 海量 科技 文 
献 的 深度 知识 分 析 , 使 科技 文献 可 自动 计算 执行 、 自 
动 阅读 理解 以 及 自动 创建 知识 之 间 的 关联 等 语义 特 
征 ,仍然 是 需要 深入 研究 的 问题 。 本 研究 提出 的 研 
究 设 计 指 纹 描述 框架 , 即 是 一 种 描述 科技 文献 知识 
单元 的 标准 规范 ,利用 研究 设计 指纹 将 科技 文献 知 
识 单元 以 一 种 结构 化 .语义 化 与 关联 化 的 标准 进行 
组 织 ,使 科技 文献 转换 成 机 器 可 计算 与 理解 的 智能 
文献 。 

研究 设计 指纹 描述 框架 的 设计 思路 本 质 依赖 于 
科学 研究 方法 ,对 于 科技 文献 撰写 者 来 说 , 它 是 规范 
与 体现 科研 过 程 的 一 个 流程 框架 ,如 下 图 5 所 示 ; 而 
对 于 阅读 科技 文献 的 用 户 来 说 , 它 是 帮助 用 户 了 解 
科研 成 果 的 导航 工具 。 下 面 从 分 类 体系 、 构 建 规则 
与 框架 结构 三 个 方面 对 此 框架 进行 介绍 ,并 将 在 后 
续 研 究 中 对 其 应 用 效果 进行 验证 与 分 析 。 
4.1 分 类 体系 

科技 文献 蕴藏 着 丰富 的 知识 单元 类 型 ,为 了 更 
清晰 合理 地 识别 与 组 织 各 种 研究 设计 指纹 ,参照 文 
献 修辞 篇 章 结 构 ,将 研究 设计 指纹 分 为 四 种 类 型 ,如 


图 5 研究 设计 指纹 描述 流程 图 

下 图 6 所 示 :一 是 基础 指纹 ,主要 描述 科学 研究 的 知 
识 基础 ,包括 研究 假设 .研究 背景 和 研究 目标 ;二 是 
技术 指纹 ,主要 描述 实施 解决 研究 问题 的 技术 方案 ， 
包括 研究 方法 、 研 究 数 据 、 研 究 算 法 、 研 究 模型 与 研 
究 设 备 ;三 是 结论 指纹 ,主要 描述 研究 的 成 果 或 者 效 
果 , 包 括 研 究 结果 与 研究 结论 ;四 是 未 来 指纹 ,主要 
描述 研究 未 来 的 研究 方向 或 者 重点 。 


基础 指纹 
o 


o9 "^" 研究 方法 
oam 
O 未 来 指纹 


图 6 研究 设计 指纹 分 类 体系 图 
4.2 构建 准则 

(1) 将 科技 文献 表示 为 计算 机 可 以 自动 计算 执 
行 与 阅读 理解 的 智能 载体 ; 

(2) 勾 画 出 一 篇 科技 文献 或 者 一 个 人 研究 主题 的 
研究 设计 指纹 的 知识 骨干 网 络 图 ,帮助 科研 人 员 快 
速 了 解 文献 的 中 心 主题 或 者 核心 研究 思路 与 内 容 ; 

(3) 关 联 发 现 科技 文献 的 研究 设计 指纹 之 间 的 
证 据 链 ,通过 关键 主题 或 者 知识 对 象 来 支持 相关 的 
研究 设计 指纹 ,表明 它 的 唯一 性 或 者 效率 性 能 等 ; 

(4) 支 持 实现 技术 创新 ,通过 发 现 较 好 的 研究 方 
法 、 人 研究 设备 、 人 研究 模型 等 研究 设计 指纹 以 及 组 合 、 
扩展 等 模式 ,实现 科学 研究 设计 的 再 创造 ,更 好 地 解 
决 研究 问题 。 

4.3 框架 结构 

研究 设计 指纹 框架 结构 是 将 研究 设计 指纹 按照 
一 种 标准 规范 进行 结构 化 组 织 , 文 持 科 技 文献 的 机 
器 计算 执行 性 .语义 计算 与 知识 标 引 等 知识 组 织 相 
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关 的 研究 活动 。 下 面 从 指纹 类 型 与 整体 框架 、 指 纹 
类 设计 和 指纹 的 划分 粒度 三 个 视角 进行 研究 与 实 
现 , 具 体 如 下 : 
4.3.1 指纹 类 型 与 整体 框架 

研究 设计 指纹 框架 体系 结构 以 研究 设计 指纹 来 
表示 科技 文献 研究 成 果 , 总 体 结构 分 为 两 个 层次 ,第 
一 个 层次 分 为 研究 主题 .研究 方法 、 研 究 算 法 、 研 究 
结果 、 研 究 结论 与 未 来 研究 六 大 部 分 ,而 第 二 个 层次 
详细 描述 科技 文献 , 主要 分 为 研究 假说 .研究 场景 、 
研究 目的 、 研 究 背 景 、 研 究 方法 .研究 数据 .研究 算 
法 、 研 究 结果 、 研 究 结 论 .未 来 研究 以 及 研究 设备 共 
11 种 设计 指纹 ,两 个 层次 之 间 相 互 关联 、 层 次 内 部 
相互 关联 ,很 好 地 支持 科技 资源 之 间 的 关联 计算 与 
发 行 , 具 体 框架 描述 如 下 图 7。 
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4.3.2 指纹 类 设计 

从 科技 文献 的 知识 结构 性 .可 计算 执行 性 设计 ， 
利用 实体 类 与 类 属性 两 个 角度 来 描述 ,如 下 表 1 所 
示 , 同 时 参考 W3C 发 布 的 ORB 即 语义 化 组 织 的 方 
式 , 将 上 述 内 容 进 行 有 机 关联 ,一 方面 提升 科技 文献 
所 包含 研究 设计 元 素 的 可 分 析 评 佑 性 与 可 计算 性 ， 
男 一 方面 增强 它们 之 间 的 知识 关联 性 ,同时 也 提高 


计算 机 处 理 效率 。 
R1 研究 设计 指纹 描述 框架 类 与 属性 描述 表 


HD E 
假说 ,目标 ,背景 ,方法 ,数据 ,算法 ,模型 ,设备 ,结果 ， 
贡献 ,结论 ,未 来 研究 ,实体 对 象 


对 立 面 ,原因 ,条 件 , 结 果 ， 

殊 条 件 ,方法 ,新 颖 性 XGA 

4.3.3 指纹 的 划分 粒度 
研究 设计 指纹 的 粒度 方面 ,粗细 结合 ,从 科技 文 
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证 据 , 目 的 ,注释 ,环境 , 特 
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献 的 物理 修辞 结构 角度 出 发 ,分 为 四 个 层次 ,具体 设 
计 如 下 表 2 与 下 图 8 所 示 : 

表 2 研究 设计 指纹 描述 框架 设计 粒度 描述 表 
描 述 


主体 修辞 结构 , 即 IMRD 经 典 模式 ,同时 参照 


F 区 域 , 实 现 研究 设计 指纹 跨 多 个 主体 修辞 


斗 技 文献 句子 ,实现 识别 与 发 现 研究 设计 指纹 的 证 据 


斗 技 文献 核心 知识 事件 ,实现 从 微观 层面 上 描述 作者 要 
表达 的 知识 内 容 , 揭 示 作 者 对 本 领域 或 者 研究 方向 所 做 
出 的 贡献 


| 标题 、 摘 要 、 肖 景 .. | 


论证 区 域 : 一 个 论证 问题 可 
以 村 多 个 修 梓 结构， 例如 一 
个 研究 方法 可 以 在 摘要 中 ， 
也 可 以 在 相关 研究 中 


| 句子 层面 上 标识 


| 词 层 面 上 标识 


图 8 基于 科技 文献 的 研究 设计 指纹 分 析 层 次 示意 图 


5 应 用 研究 探析 

以 上 介绍 了 基于 科技 文献 的 研究 设计 指纹 描述 
框架 ,但 在 科研 成 果 数 字 化 文本 数量 激增 的 信息 环 
M P ,如何 应用 此 框架 帮助 科研 人 员 快 速 发 现 科 技 
文献 中 的 重要 知识 以 及 相互 之 间 的 脉络 关系 ? 此 框 
架 能 否 对 未 来 科技 文献 的 出 版 提供 标准 规范 的 帮 
Hh? 能 否 为 科研 人 员 提 供 一 个 写作 思路 上 的 标准 语 
义 框架 以 最 终 实 现 与 语义 出 版 的 无 缝 集成 ?下面 主 
要 从 挖掘 科技 文献 中 心 主题 .绘制 科技 文献 知识 骨 
干 网 络 岁 和 支持 语义 出 版 三 个 视角 对 “研究 设计 指 
纹 描述 框架 ”的 应 用 优势 进行 分 析 与 论证 。 
5.1 挖掘 科技 文献 中 心 主题 

如 何 快速 准确 地 识别 出 科技 文献 的 中 心 主题 、 
一 般 主题 以 及 分 析出 主题 间 的 结构 关系 ,历来 是 文 
本 挖掘 中 的 重要 研究 课题 。 随 着 语言 分 析 、 信 息 抽 
取 和 社会 网 络 分 析 等 方法 的 发 展 ,一 些 新 的 解决 思 
路 和 方法 正在 涌现 。 而 通过 科技 文献 研究 设计 指纹 
描述 规范 框架 ,不 仅 可 以 将 文献 主题 从 指纹 特征 的 
粒度 进行 结构 化 组 织 , 而且 也 揭示 了 相互 之 间 的 关 
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系 ,进而 快速 创建 科技 文献 的 主题 结构 网 络 图 ,辅助 
科研 人 员 快 速 了 解 所 关注 文献 论述 的 中 心 主题 。 
5.2 绘制 科技 文献 知识 骨干 网 络 图 
研究 设计 指纹 描述 框架 从 “研究 设计 ”的 视角 组 
织 与 揭示 一 篇 科技 文献 , 即 识别 它 的 具体 研究 内 容 
以 及 研究 背景 .方法 、 算 法、 工具 、 数 据 集 、 结 果 以 及 
结论 等 研究 设计 指纹 (如 图 5 所 示 ) ,形成 科技 文献 
的 知识 骨干 网 络 图 ,从 而 帮助 科研 人 员 了 迅速 掌握 该 
领域 最 新 或 者 最 有 效 的 研究 方法 、 工 具 等 。 
5.3 支持 语义 出 版 

语义 出 版 2009 年 被 首次 提出 , 肖 顿 等 ”将 其 
概念 界定 为 :提升 期 刊 文章 的 语义 ,以 促进 其 自动 获 
取 为 目的 ,通过 构建 语义 相关 的 文章 之 间 的 链接 , 提 
供 多 种 获取 文章 内 数据 的 可 行 途径 ,也 使 文章 之 间 
的 数据 整合 更 容易 实现 。 而 肖 顿 又 提出 语义 出 版 能 
够 极 大 地 提高 科学 交流 效率 ,其 提供 的 增值 服务 能 
获得 合理 的 商业 回报 ,在 学 术 出 版 领域 将 得 以 推广 
实施 。 徐 吴 " 提 到 随 着 语义 出 版 研究 的 推进 ， 
目前 科学 出 版 领域 关注 的 重点 在 于 改善 知识 对 象 在 
产生 、 传 播 演进、 发 布 和 重用 这 一 生命 周期 中 的 语 
义 。 在 上 述 语义 出 版 发 生 与 发 展 的 背景 下 ,研究 设 
计 指 纹 描述 框架 将 科技 文献 进行 语义 化 .结构 化 组 
组 ,将 以 一 种 新 的 模式 支持 科技 文献 内 核心 知识 内 
容 的 识别 、 提 取 与 计算 ,科技 文献 之 间 知 识 关联 、 整 
合 以 及 研究 成 果 的 传播 ,使 科技 文献 成 为 计算 机 可 
以 自动 计算 、 自 动 阅读 的 智能 产品 。 


6 小 结 

随 着 现代 信息 技术 的 快速 发 展 ,科技 文献 的 数 
字 化 规模 势必 继续 扩大 ,从 海量 科技 文献 中 了 解 某 
一 研究 问题 的 最 新 研究 方法 .最 有 效 的 研究 设备 与 
模型 等 ,成 为 科研 人 员 面 临 的 巨大 挑 成 。 因 此 ,设计 
一 套 规 范 化 的 科技 文献 描述 框架 指南 ,不 但 能 够 对 
已 出 版 的 科技 文献 进行 知识 的 再 创造 ,而 且 能 对 科 
技 文献 写作 进行 知识 的 研究 设计 组 织 与 关联 化 组 
织 , 辅 助 科研 人 员 快 速 了 解 研 究 进展 ,掌握 研究 方 
法 ,洞察 研究 动向 。 本 课题 将 在 下 一 阶段 研究 中 ,对 
研究 设计 指纹 描述 框架 进行 实验 设计 ,进一步 验证 
该 框架 对 于 科技 文献 知识 挖掘 与 分 析 的 作用 。 
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